影响重症患者护理的许多基本问题会带来类似的分析挑战:医生无法轻易估计处于危险的医疗状况或治疗的影响,因为医疗状况和药物的因果影响是纠缠的。他们也无法轻易进行研究:没有足够的高质量数据来进行高维观察性因果推断,并且通常无法在道德上进行RCT。但是,机械知识可获得,包括如何吸收人体药物,并且这些知识与有限数据的结合可能就足够了 - 如果我们知道如何结合它们。在这项工作中,我们提出了一个框架,用于在这些复杂条件下对重症患者的因果影响估算:随着时间的流逝,药物与观察之间的相互作用,不大的患者数据集以及可以代替缺乏数据的机械知识。我们将此框架应用于影响重症患者的极其重要的问题,即癫痫发作和大脑中其他潜在有害的电气事件的影响(称为癫痫样活动 - EA)对结局。鉴于涉及的高赌注和数据中的高噪声,可解释性对于解决此类复杂问题的故障排除至关重要。我们匹配的小组的解释性使神经科医生可以执行图表审查,以验证我们的因果分析的质量。例如,我们的工作表明,患者经历了高水平的癫痫发作般的活动(75%的EA负担),并且未经治疗的六个小时的窗口未受治疗,平均而言,这种不良后果的机会增加了16.7%。作为严重的大脑损伤,终生残疾或死亡。我们发现患有轻度但长期EA的患者(平均EA负担> = 50%)患有不良结果的风险增加了11.2%。
translated by 谷歌翻译
We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks. Code will be available soon.
translated by 谷歌翻译
We present Fast Language-Image Pre-training (FLIP), a simple and more efficient method for training CLIP. Our method randomly masks out and removes a large portion of image patches during training. Masking allows us to learn from more image-text pairs given the same wall-clock time and contrast more samples per iteration with similar memory footprint. It leads to a favorable trade-off between accuracy and training time. In our experiments on 400 million image-text pairs, FLIP improves both accuracy and speed over the no-masking baseline. On a large diversity of downstream tasks, FLIP dominantly outperforms the CLIP counterparts trained on the same data. Facilitated by the speedup, we explore the scaling behavior of increasing the model size, data size, or training length, and report encouraging results and comparisons. We hope that our work will foster future research on scaling vision-language learning.
translated by 谷歌翻译
我们研究离线元加强学习,这是一种实用的强化学习范式,从离线数据中学习以适应新任务。离线数据的分布由行为政策和任务共同确定。现有的离线元强化学习算法无法区分这些因素,从而使任务表示不稳定,不稳定行为策略。为了解决这个问题,我们为任务表示形式提出了一个对比度学习框架,这些框架对培训和测试中行为策略的分布不匹配是可靠的。我们设计了双层编码器结构,使用相互信息最大化来形式化任务表示学习,得出对比度学习目标,并引入了几种方法以近似负面对的真实分布。对各种离线元强化学习基准的实验证明了我们方法比先前方法的优势,尤其是在对分布外行为策略的概括方面。该代码可在https://github.com/pku-ai-ged/corro中找到。
translated by 谷歌翻译
作为计算机视觉的重要领域,对象跟踪形成了两个独立的社区,分别研究单个对象跟踪(SOT)和多个对象跟踪(MOT)。但是,由于两个任务的不同训练数据集和跟踪对象,因此在一个跟踪方案中的当前方法不容易适应另一种方法。尽管unitrack \ cite {wang2021Diverent}表明,具有多个头部的共享外观模型可用于处理单个跟踪任务,但它无法利用大规模跟踪数据集进行训练,并且在单个对象跟踪上执行良好的训练。在这项工作中,我们提出了统一的变压器跟踪器(UTT),以通过一个范式在不同方案中解决跟踪问题。在我们的UTT中开发了轨道变压器,以跟踪SOT和MOT中的目标。利用目标和跟踪框架功能之间的相关性以定位目标。我们证明SOT和MOT任务都可以在此框架内解决。该模型可以同时通过在单个任务数据集中优化SOT和MOT目标,同时端到端训练。广泛的实验是在几个基准测试基准上进行的,该基准具有在SOT和MOT数据集上训练的统一模型。代码将在https://github.com/flowerfan/trackron上找到。
translated by 谷歌翻译
While today's video recognition systems parse snapshots or short clips accurately, they cannot connect the dots and reason across a longer range of time yet. Most existing video architectures can only process <5 seconds of a video without hitting the computation or memory bottlenecks. In this paper, we propose a new strategy to overcome this challenge. Instead of trying to process more frames at once like most existing methods, we propose to process videos in an online fashion and cache "memory" at each iteration. Through the memory, the model can reference prior context for long-term modeling, with only a marginal cost. Based on this idea, we build MeMViT, a Memory-augmented Multiscale Vision Transformer, that has a temporal support 30x longer than existing models with only 4.5% more compute; traditional methods need >3,000% more compute to do the same. On a wide range of settings, the increased temporal support enabled by MeMViT brings large gains in recognition accuracy consistently. MeMViT obtains state-of-the-art results on the AVA, EPIC-Kitchens-100 action classification, and action anticipation datasets. Code and models are available at https://github.com/facebookresearch/memvit.
translated by 谷歌翻译
我们呈现蒙版特征预测(MaskFeat),用于自我监督的视频模型的预训练。我们的方法首先随机地掩盖输入序列的一部分,然后预测蒙面区域的特征。我们研究五种不同类型的功能,找到面向导向渐变(HOG)的直方图,手工制作的特征描述符,在性能和效率方面尤其良好。我们观察到猪中的局部对比标准化对于良好的结果至关重要,这与使用HOG进行视觉识别的早期工作符合。我们的方法可以学习丰富的视觉知识和基于大规模的变压器的模型。在不使用额外的模型重量或监督的情况下,在未标记视频上预先培训的MaskFeat在动力学-400上使用MVIT-L达到86.7%的前所未有的结果,在动力学-600,88.3%上,88.3%,在动力学-700,88.8地图上SSV2上的75.0%。 MaskFeat进一步推广到图像输入,其可以被解释为具有单个帧的视频,并在想象中获得竞争结果。
translated by 谷歌翻译
没有发言者标签的培训扬声器 - 识别和强大的发言者验证系统仍然挑战和值得探索。在这项研究中,我们提出了一种有效的自我监督的学习框架和一种新的正规化策略,以促进自我监督的发言者代表学习。不同于基于对比的自我监督的学习方法,所提出的自我监督正则化(SSREG)专注于正数据对潜在的潜在表示之间的相似性。我们还探讨了替代在线数据增强策略对时域和频域的有效性。凭借我们强大的在线数据增强策略,所提出的SSREG显示了自我监督学习的潜力,而不使用负对对,它可以显着提高自我监督扬声器表示学习与简单的暹罗网络架构的表现。 VOXECEB数据集的综合实验表明,我们提出的自我监督方法通过增加有效的自我监督正则化和胜过其他以前的作品来获得23.4%的相对改善。
translated by 谷歌翻译
在本文中,我们将多尺度视觉变压器(MVIT)作为图像和视频分类的统一架构,以及对象检测。我们提出了一种改进的MVIT版本,它包含分解的相对位置嵌入和残余汇集连接。我们以五种尺寸实例化此架构,并评估Imagenet分类,COCO检测和动力学视频识别,在此优先效果。我们进一步比较了MVITS的汇集注意力来窗口注意力机制,其中它在准确性/计算中优于后者。如果没有钟声,MVIT在3个域中具有最先进的性能:ImageNet分类的准确性为88.8%,Coco对象检测的56.1盒AP和动力学-400视频分类的86.1%。代码和模型将公开可用。
translated by 谷歌翻译
我们介绍了一个开源深学习库的Pytorchvideo,为各种视频理解任务提供了丰富的模块化,高效,可重复的组件,包括分类,检测,自我监督学习和低级处理。该库涵盖了一系列视频理解工具,包括复制最先进的性能的多模式数据加载,转换和模型。Pytorchvideo进一步支持硬件加速,从而实现移动设备上的实时推断。图书馆基于Pytorch,可以由任何培训框架使用;例如,pytorchlightning,pyslowfast或优雅的愿景。pytorchvideo在https://pytorchvideo.org/提供
translated by 谷歌翻译